Um pesquisador coletou dados sobre três variáveis psicológicas, quatro variáveis acadêmicas (resultados de testes padronizados), e o tipo de programa educacional do aluno em 600 estudantes do ensino médio.
Ele está interessado em descobrir como o conjunto de variáveis psicológicas está relacionado com as variáveis acadêmicas e o tipo de programa que o aluno está inserido.
Um médico coletou dados sobre o nível de colesterol, pressão arterial e peso. Ele também coletou dados sobre os hábitos alimentares dos pacientes (por exemplo, o quanto de carne vermelha, peixe, produtos lácteos e chocolate são consumidos por semana).
Ele quer investigar a relação entre as três medidas de saúde e hábitos alimentares de seus pacientes.
Sejam \(X_1, X_2, \cdots, X_p\) \(p\) variáveis independentes relacionadas à uma variável resposta \(Y\).
O modelo de regressão linear múltipla univariado é dado pela seguinte expressão:
\[\underbrace{Y}_{\text{resposta}} = \underbrace{\beta_0 + \beta_1X_1 + \cdots + \beta_rX_p}_{\text{média; parte estrutural}} + \underbrace{\epsilon}_{\text{erro; parte aleatória}}\]
\[Y_{i} = \beta_0 + \beta_1X_{1i} + \cdots + \beta_pX_{pi} + \epsilon_i, \hspace{0.2cm} i = 1, \cdots, n\]
Suposições
Em notação matricial, temos:
\[\underbrace{\mathbf{y}}_{n \times 1} = \underbrace{\mathbf{X}}_{n \times (p + 1)} \underbrace{\mathbf{\beta}}_{(p + 1) \times 1} + \underbrace{\mathbf{\epsilon}}_{n \times 1} \]
Suposições
\(E(\mathbf{\epsilon}) = \mathbf{0}\)
\(\text{Var}(\mathbf{\epsilon}) = \sigma^2 \mathbf{I}_n\)
\[ \mathbf{y} = \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{matrix} \right] \hspace{1cm} \mathbf{X} = \left[ \begin{matrix} 1 & X_{11} & X_{12} & \cdots & X_{1p} \\ 1 & X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{np} \end{matrix} \right] \]
\[ \mathbf{\beta} = \left[ \begin{matrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{matrix} \right] \hspace{1cm} \mathbf{\epsilon} = \left[ \begin{matrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{matrix} \right] \]
🤔
Observe que ainda não fizemos nenhuma suposição a cerca da distribuição dos erros…
Suponha que a matriz \(\mathbf{X}\) seja de posto-completo tal que suas colunas formam um conjunto L.I.
Neste caso, a matriz \(\mathbf{X}^t \mathbf{X}\) é não singular e o estimador de mínimos quadrados do vetor \(\mathbf{\beta}\) é dado por
\[\widehat{\mathbf{\beta}} = (\mathbf{X}^t \mathbf{X})^{-1}\mathbf{X}^t\mathbf{y}\]
Os valores ajustados são, então, dados por:
\[\widehat{\mathbf{y}} = \mathbf{X}\widehat{\mathbf{\beta}} = \underbrace{\mathbf{X}(\mathbf{X}^t \mathbf{X})^{-1}\mathbf{X}^t}_{\mathbf{H}}\mathbf{y} = \mathbf{H} \mathbf{y}\]
e os resíduos
\[\widehat{\mathbf{\epsilon}} = \mathbf{y} - \widehat{\mathbf{y}} = (\underbrace{\mathbf{I} - \mathbf{H}}_{\mathbf{P}} ]\mathbf{y}\]
satisfazem (somente quando houver a constante \(\beta_0\) no modelo)
\[\mathbf{X}^t\widehat{\mathbf{\epsilon}} = {\mathbf{0}} \hspace{0.5cm} e \hspace{0.5cm} \widehat{\mathbf{y}}^t\widehat{\mathbf{\epsilon}} = 0 \]
A soma de quadrados de resíduos é
\[\text{SQ Res} = \displaystyle{\sum_{i=1}^n}(y_i - \widehat{y}_i)^2 = \widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}} = \mathbf{y}^t(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{y}^t\mathbf{y} - \mathbf{y}^t \mathbf{X} \widehat{\mathbf{\beta}}\]
Observe que…
\[\displaystyle{\sum_{i=1}^n} y_i^2 = \mathbf{y}^t \mathbf{y} = (\mathbf{y} - \widehat{\mathbf{y}} + \widehat{\mathbf{y}})^t (\mathbf{y} - \widehat{\mathbf{y}} + \widehat{\mathbf{y}}) = \widehat{\mathbf{y}}^t\widehat{\mathbf{y}} + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}\]
Uma vez que a primeira coluna de \(\mathbf{X}\) é \(\mathbf{1}\), a condição \(\mathbf{X}^t\widehat{\mathbf{\epsilon}} = {\mathbf{0}}\) inclui a exigência \(0 = \mathbf{1}^t\widehat{\mathbf{\epsilon}} = \displaystyle{\sum_{j=1}^n} \widehat{\mathbf{\epsilon}}_j = \displaystyle{\sum_{j=1}^n} y_j - \displaystyle{\sum_{j=1}^n} \widehat{y}_j\) ou \(\bar{y} = \bar{\widehat{y}}\). Subtraindo \(n\bar{y}^2 = n\bar{\widehat{y}}^2\) de ambos os lados, temos a decomposição básica da soma de quadrados total:
\[\text{SQ Total} = \mathbf{y}^t \mathbf{y} - n\bar{y}^2 = \widehat{\mathbf{y}}^t\widehat{\mathbf{y}} - n\bar{\widehat{y}}^2 + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}\]
De forma que, o coeficiente de determinação \(R^2\) é dado por:
\[R^2 = 1 - \dfrac{\text{SQ Res}}{\text{SQ Total}} = 1 - \dfrac{\mathbf{y}^t\mathbf{y} - \mathbf{y}^t \mathbf{X} \widehat{\mathbf{\beta}}}{\widehat{\mathbf{y}}^t\widehat{\mathbf{y}} - n\bar{\widehat{y}}^2 + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}}\]
Os dados do arquivo Exemplo_regressao_01.dat referem-se à avaliação imobiliária de 20 casas de determinado bairro em uma cidade. As variáveis envolvidas são: